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О решении некоторых задач анализа данных, 
возникающих при построении адаптивных 
суррогатных моделей сложных объектов 


В статье проведен обзор основных задач анализа данных, возникающих при создании адаптивных 
суррогатных моделей сложных объектов. Подробно рассмотрены методологические основы подходов 
к решению задач: 1) снижения размерности данных при создании математических моделей описания 
объектов; 2) аппроксимации зависимостей при создании суррогатных моделей. 


В процессе проектирования и создания сложных технических многокомпонентных 
систем рассматриваются и сравниваются различные технические решения, касающиеся 
структуры систем, механизмов их функционирования, выбора параметров и других эле- 
ментов объекта. Для сравнения решений и выбора оптимального (рационального) реше- 
ния создаются основанные на знаниях системы поддержки инженерных решений, в 
основе которых лежит широкий спектр различных когнитивных технологий. Для таких 
решений необходимо уметь сравнивать характеристики (свойства) объекта для различных 
вариантов его построения и в различных условиях функционирования. Ограниченные 
возможности проведения натурных и вычислительных экспериментов для получения 
значений характеристик для различных вариантов проектируемого объекта, а также 
низкая точность эвристических инженерных методов делают актуальной проблему соз- 
дания технологий, основанных на упрощенных моделях и позволяющих в режиме реаль- 
ного времени проводить сравнение болышого числа вариантов построения сложных 
технических объектов с обеспечением требуемой достоверности выводов. 

Одной из таких востребованных технологий является когнитивная технология 
быстрых расчетов [1], позволяющая строить основанные на данных так называемые сур- 
рогатные адаптивные модели. Построенные модели фактически имитируют (заменяют) 
как источники получения данных об объекте, основанные на некоторой исходной (полно- 
размерной или упрощенной) модели, так и сами модели, созданные на основе изучения 
физических феноменов, описывающих процессы функционирования объектов. Обе моде- 
ли (исходная и суррогатная) должны иметь один и тот же набор входных и выходных 
данных, а результаты обеих моделей (для одних и тех же входных данных) должны быть 
близкими. 

Для создания адаптивных моделей необходимо решение ряда новых теоретических 
задач. Наряду с универсальными когнитивными технологиями, такими, как технологии 
искусственного интеллекта, извлечения данных (Раёа Миши), моделирования и анализа 
данных и др., когнитивная технология быстрых расчетов включает в себя предметно- 
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ориентированные компоненты, основанные на решении новых математических задач ана- 
лиза и обработки многомерных данных (снижения размерности, аппроксимации зависи- 
мостей, оценивание точности и др.). 

Цель данной статьи состоит в том, чтобы провести краткий обзор основных задач 
анализа данных, возникающих при создании адаптивных суррогатных моделей сложных 
объектов, и подробно рассмотреть методологические основы подходов к решению задач: 
1) снижения размерности данных при создании математических моделей описания объек- 
тов; 2) аппроксимации зависимостей при создании суррогатных моделей. 


1. Концепция создания суррогатных адаптивных моделей 


Основная концепция создания суррогатных адаптивных моделей заключается в 
следующих положениях [1]: 

1. Характеристика объекта (7,), определяющая свойства объекта в некоторых усло- 
виях, может быть описана в виде функциональной зависимости 7, = КХ, У), где перемен- 
ная Х описывает сам объект, а переменная У задает условия функционирования объекта 
(параметры управления объектом, параметры внешней среды). Например, аэродинами- 
ческие характеристики самолета (коэффициенты сил, моментов, сопротивлений и др.) в 
условиях крейсерского полета являются функцией, зависящей от формы поверхности 
самолета (Х) и параметров режима полета и управления (У) (например, скорости, углов 
атаки и скольжения и др.). 

2. Функция Е является неизвестной, и для ее вычисления проводятся натурные или 
вычислительные эксперименты, то есть значения функции вычисляются с использова- 
нием моделей. Пусть М - некоторая модель (способ, функция), позволяющая вычислять 
приближенное значение Им = Ем(Х, У) характеристики 7, для входных данных (Х, У). 
Если функции Ем и Е близки друг к другу в некоторой метрике: 
то можно считать, что модель М достаточно адекватна реальности. 

3. Имеется некоторое количество измерений 

я {О Мы ЕКХЬ У), т р 2, 5 йе (2) 
где значение 7, = Е(Хь У)) характеристики 7, получено методом М; для объекта, имею- 
щего описания Хь в условиях функционирования У:;. Предполагается, что имеющиеся 
измерения имеют приемлемую точность, то есть Е(Хь, У;) = ЕХЬ У). 

4. По известному множеству >». (2) с использованием тех или иных математических 
методов анализа и обработки данных строится функция Е5(Х, У), значение которой 
принимается в качестве приближенного значения характеристики 7, для объекта с 
описанием Х в условиях функционирования У. 

Если все значения в множестве >. (2) получены при помощи одной и той же модели 
Ми 

Е5(Х, У) > Ем(Х, уе (3) 
то построенная функция Ез может рассматриваться как «заменитель» (суррогат) функции 
Ем. Методы вычисления характеристик с использованием таким образом построенных 
функций носят название суррогатных моделей. 

Если получение данных с помощью модели М (функции Ем) является существенно 
более затратным (по времени, стоимости и/или другим показателям) по сравнению с 
построенной моделью $ (функцией Е$5), то построенную суррогатную модель $ = 5(М) 
можно в дальнейшем использовать вместо модели М для вычисления приближенных 
значений неизвестной функции Е(Х, У). 

Базируясь на вышеизложенной концепции, можно определить основные этапы и 
задачи построения суррогатных моделей. 
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2. Основные типы задач анализа данных 


Базируясь на вышеизложенной концепции, можно определить основные типы задач 
анализа данных, возникающие при построении суррогатных моделей. 


2.1. Идентификация класса рассматриваемых объектов, 
создание математической модели описания объектов 
и условий их функционирования (п104е] сопзгасйоп ап4 14епийсайоп) 


Как и при построении любой модели М достаточно сложного объекта, определяю- 
щей функцию Ем(Х,У), необходимо использовать некоторые модели для описания аргу- 
ментов (Х,У) функции Е: модели описания объектов рассматриваемого класса и модели 
условий их функционирования. При построении суррогатных моделей, основанных на 
математических методах анализа и обработки данных, необходимо иметь достаточно 
компактные описания входных данных, обеспечивая при этом достаточную адекватность. 
Например, детальное описание поверхности самолета, состоящее из десятков тысяч 
чисел, необходимо заменить небольшим числом геометрических характеристик объекта 
(порядка десятков и сотен), отражающих наиболее существенные (с точки зрения решае- 
мой инженерной задачи) свойства объекта [2], [3]. 

Построение «низкоразмерных» параметрических моделей для описания условий 
функционирования носит, как правило, предметно-ориентированный характер. Напри- 
мер, в задачах аэродинамического проектирования, в крейсерском режиме полета условия 
набегающего потока описываются несколькими параметрами (числа Маха и Рейнольдса, 
углы атаки и скольжения и др.), а для учета турбулентности могуг использоваться 
низкорейнольдовские (К, 5) модели (или даже более простые алгебраические модели для 
пуги смещения, как это сделано в широко используемом промышленном пакете вычис- 
лительной аэродинамики ЗКАК-СО). Но модели описания объектов могут строиться на 
универсальных когнитивных технологиях, основанных на анализе данных. 


2.2. Создание консолидированных (гармонизированных) данных 
(Чафа Ёл$1оп) 


Имеющиеся данные могли быть получены с помощью разных методов и моделей, 
для разных условий и с разной точностью. На основании таких данных могут быть 
построены так называемые консолидированные (гармонизированные) данные, в которых 
для каждого значения аргумента имеется ровно одно измерение, которое характеризуется 
единственным точностным параметром [2], [4]. Общая проблема получения консолидиро- 
ванных гармонизированных данных является особенно важной при построении суррогат- 
ных моделей, основанных на анализе и обработке данных. 

При создании консолидированных данных возможно планирование и проведение 
дополнительных вычислительных экспериментов для получения недостающих данных 
или повышения точности уже имеющихся данных. Результатом будет являться множест- 
во консолидированных данных 

о = {(Х, У, 7, = Есоиз СХ, У)), (Х, У) = В аь (4) 
где Пе состоит из множества значений аргумента (Х, У), для которых имеются 
консолидированные данные, а Риз обозначает результат построения консолидированных 
данных. Можно также считать, что имеется метод (способ) Ме: получения консолидиро- 
ванных данных. 
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Так же, как и для исходных данных, предполагается приемлемая точность консо- 
лидированных данных: 


Есов СХ, У) = ЕСХ, У), (Х, У) Е Пу. (5) 


2.3. Построение аппроксимаций многомерных зависимостей 
для создания суррогатной модели объекта (сопзёгасНоп оРарргохипаНоп$) 


С учетом предположений (1), (5) можно рассматривать множество Ув (4) как 
множество приближенных известных значений искомой неизвестной функции Е(Х.У). 
Поэтому задача построения суррогатной модели может рассматриваться как задача 
аппроксимации, т.е. как задача построения аппроксимирующей функции 

Еарр(Х.У) = ЕзрыСХУТ оз), (6) 
которая приближенно вычисляет значения характеристики 7, в заданной точке (ХУ) по 
множеству У’овз (4) приближенных известных значений функции Е(Х,У) в конечном 
числе точек (ХУ) е Оз. Построенная функция Е„‚»(Х,У) (6) и принимается в качестве 
суррогатной модели Е5(Х,У) [2], [3]. 


2.4. Снижение размерности данных (даа 4пптепзоп гедисйоп) 


При построении функции Е „„(Х,У) используются современные методы анализа 
данных на основе искусственных нейронных сетей, машины опорных векторов, крикин- 
га и т.д. Однако эффективное применение указанных методов требует, чтобы размерность 
аргумента (ХУ) была не очень высокой (не больше нескольких сотен). В силу этого 
необходимо применять методы снижения размерности данных, при этом предполагается, 
что ЕриСХУ) = С(ОСХУ)) для некоторой функции С(*=), где ОСХ.У) — такое преобразование 
аргумента (Х,У), которое снижает размерность аргумента до внутренней размерности или 
близкой к ней (под внутренней размерностью данных понимается такое количество 
параметров, которое достаточно, чтобы объяснить наблюдаемые свойства данных [5], [6]). 

Отметим, что можно выделить несколько подходов к снижению размерности данных: 

1. Междисциплинарные подходы, которые не учитывают специфики данных и мо- 
гуг применяться для данных любой природы. В данном подходе важную роль играют ме- 
тоды: на основе итерационных процедур главных компонент для равномерных метрик [6]; 
основанные на копирующих искусственных нейронных сетях [5], [7]; использующие 
построение ортогональных нелинейных многообразий [8], [9]. 

2. Подходы, учитывающие специфику данных. Здесь стоит упомянуть методы: 
основанные на параметрическом описании сжимаемых данных (учитывается, что данные 
могут описывать, например, какой-либо сложный геометрический объект) [5], [10]; ис- 
пользующие обобщенные копирующие искусственные нейронные сети для функциональ- 
ных критериев качества [5]; учитывающие наличие предикатов [11]. 

3. Каскадный подход, включающий в себя вышеназванные методы [5], [9]. 

Заметим, что для построения множества данных У’, требуется процедура генера- 
ции объектов, принадлежащих заданному классу и похожих на объекты, описываемые 
множеством данных Усов. Именно на основе методов снижения размерности удается 
построить процедуры, позволяющие генерацию объектов с заданными свойствами [7]. 


2.5. Валидация и оценивание точности созданной суррогатной модели 
(ассигасу езтайноп ап тоде| уа|Чайоп) 


Необходимо проверить адекватность созданной суррогатной модели Е, то есть 
оценить величину погрешности е(Х,У) [4] в соотношении (3), возникающей при замене 
функции ЕмСХУ) функцией Е (Х,У), с использованием независимых высокоточных 
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данных (Нюр Ещешу Ра), которые принимаются в качестве эталонных реальных 
данных. Также должна решаться задача прогноза погрешности е(Х,У) (3) для конкретных 
входных данных (Х,У). 


3. Методологические основы подходов к решению задач 
снижения размерности и аппроксимации зависимостей 


Рассмотрим более подробно две математические задачи, решаемые при создании 
суррогатных моделей: 

— задача снижения размерности при создании математических моделей описания объектов, 
— задача аппроксимации зависимостей при создании суррогатных моделей. 

Задача снижения размерности при создании математических моделей описания 
объектов формулируется следующим образом. Пусть В = {Ъ} есть множество рассматри- 
ваемых объектов. Для каждого объекта Б е В имеется его детальное описание Х = Х(Ъ}) с 
максимальной степенью детальности. В реальных задачах размерность М вектора Х 
может достигать тысяч чисел. 

Зафиксируем некоторый набор параметров объекта Ника(6), определяющий отобра- 
жение 

Ноа): В-> Ото (7) 
где множество 
Оюа = {Ньоа(6), Ь Е В}, (8) 
являющееся образом множества В при отображении Ниоа, является фактор-пространст- 
вом множества объектов В, определяемое отображением Нива. 


Очевидно, что в общем случае существует целое множество объектов: 
Вуьоа(В) = {6 е В: Ньоа(6) =В} 
с одним и тем же набором параметров В, и отображение На определяет разбиение 
пространства В на непересекающиеся подмножества Виоа(В), В Е Ош. 
Для каждого объекта 6 е В выберем (определим некоторым образом) единствен- 
ный объект 
Блоа =. Боа(6) Е Воа(Ньюа(Ь)), 
называемый модельным объектом, соответствующим исходному объекту Ъ, и обозна- 
чим 
Виа = {Блоа(), 6 Е В} < В 
множество всех модельных объектов. По построению, между множествами Виа и Ощюа 
существует взаимно-однозначное соответствие, определяемое прямым (7) и обратным 
отображениями: 


На . Она > Вов, (9) 
с помощью которых модельный объект определяется как 
Бла (6) = На (Нмоа(6)). (10) 


Модельный объект (10), построенный по объекту Б с помощью пары отображений 
(Нио На}, будем называть также модельным представлением, или модельным 


аналогом объекта Ъ. 


По построению, множество модельных объектов Вхоа является многообразием В 
-1 
тоа › 


пространстве объектов В, параметризованным с помощью отображения Н'„ , определен- 


-1 
по 


ного на фактор-пространстве Си (8). Обратное отображение Н', (9) определяет также 
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«алгоритм восстановления», позволяющий для каждого исходного объекта Ъ е В строить 
детальное описание 


Ха = Х(Блоа(6)) = Х( Ни (Нь»а(Ь))), (11) 
соответствующего модельного объекта Ба(Ъ) (10). 
Если вектор Ника(Ъ) имеет небольшую (по сравнению с размерностью М детального 
описания Х(Б)) размерность п и если все объекты Б Е Вша(В), имеющие одно и то же 
значение вектора параметров модели В, имеют близкие детальные описания, то есть если 


Х(Ь') = ОН, (В) 


шо4 
для всех В Е Они’ Е Виа(), то пара отображений {Нью На. } определяет процедуру 
снижения размерности (сжатия) описания объекта: 


— отображение На определяет процедуру снижения размерности (сжатия) детального 
описания объекта: 
Хх > Ниоа(Б), 
и величину Ниоа(Ь) можно считать «сжатым» описанием объекта; 
— отображение Н” 


10, 


а Определяет процедуру восстановление детального описания объекта 


по его сжатому описанию: 
Ниоа(Б) =: х( Но (Ниоа(Ь))), 


то 


и погрешность приближенного равенства 

Х(Ь) =Х(Ниа (Ни ())) (12) 
определяет точность процедуры сжатия. 

Однако постановка задачи снижения размерности, решаемой при создании сурро- 
гатных моделей, имеет ряд особенностей: 

— к стандартным требованиям близости (12) исходного описания и описания, восстанов- 
ленного после сжатия, могут добавляться различные требования, например, требования 
«функциональной» близости этих описаний: 

ЕСХ(Ь), У) = ЕСХН (Ни), У); (13) 
класс рассматриваемых объектов В = {Ъ} не имеет, как правило, точного описания и опре- 
деляется конечным множеством его «представителей» (прототипов), задаваемых мно- 
жеством их детальных описаний 

Х =Хг = {Хх 6), {= 12,...,Т}. 

Задача аппроксимации зависимостей при создании суррогатных моделей [1] со- 
стоит в построении функции Е<(Х, У), которая может быть принята в качестве прибли- 
женного значения неизвестного истинного значения Е(Х, У) характеристики /. (3). 

Технология построения суррогатных моделей основана на использовании цепочки 
преобразований. 

Преобразование 1. С использованием модели описания объектов, вместо исходно- 
го объекта Ъ, имеющего детальное описание Х = Х(Ъ), рассматривается модельный объект 
Ь,оа(6), имеющий описание Хоа = Х(Ба(Ъ)) (11). Свойства модели обеспечивают при- 
ближенное равенство (13), которое позволяет свести задачу вычисления значения 
характеристики Е(Х(Ь), У) объекта Ь к задаче оценки характеристики модельного объекта 
ЕС (Фноа), У). 

Так как Х(Ба) зависит только от модельного объекта Б.иа только через вектор 
параметров модели В = Ниоа(Б), то, с учетом обозначения 


Ешоа(В, У) = ЕСХН (В), У), (14) 


то 
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соотношение (13) может быть записано с помощью следующего соотношения: 

ЕСХ(Ф), У) 5 Епод(В, У), В == В(Ь) = Ниоа(®). (15 ) 
Тем самым, задача построения модели для вычисления Е(Х(Ъ), У) может быть заменена 
на задачу построения модели для вычисления функции Евоа(В(), У) (14), зависящей от 
аргумента В с существенно более низкой, по сравнению с Х, размерностью. 

Преобразование 2. Пусть М — некоторая существующая модель, позволяющая вы- 
числять приближенное значение Ем(Х(Ъ), У) характеристики 7. Из условия (1) следует, 
что для модельных объектов имеет место приближенное равенство: 

ЕмСХ(Боа()), У) = Ешоа(В, У), — В =Ы) = Ноа). 
Обозначив 
Емиюа(В, У) р. Емо( И (В), У), 
получаем: 
Емшоа(В, У) = Ешоа(В, У), — В=ЫЬ) = Ниюа(). (16) 
Тем самым, модель для вычисления функции Екоа(В(Ъ), У) может быть заменена моделью 
для вычисления функции Емноа(В(Ъ), У). 

Пусть имеется множество данных » результатов экспериментов по вычислению 
характеристики 7, с использованием различных моделей для множества объектов Всопз» ПО 
которым построено множество консолидированных данных Хсокз (4), состоящих из мно- 
жества значений характеристики 7, вычисленных для множества значений аргумента (Х, 
У), (Х, У) Е Пе. 

Рассматривая в качестве модели М метод получения консолидированных данных 
Моовз (точность которого заведомо не ниже точности каждого частного источника дан- 
ных), приближенное равенство (16) можно записать в виде: 


ЕсовСХ(Ь), У) ® Екоа(Ниоа(), У), (ХО), У) [= сок. 


Обозначив 
РононодсАь У) = Есовз(Х( В (В)), У), (17) 
Роопзнюа = {(Ниюч (6), У): (Х(Ъ), У) е Риь.}, (18) 
получаем: 
Рсопз-то(В, У) = Ешов(В, У), — (В, У) е Оезтов, (19) 


и, следовательно, имеется множество приближенных значений Есопз-иоа(В, У) (17) неиз- 
вестной функции Евоа(В, У) для множества значений аргументов (В, У) Е Охопз-тоа (18). 

Преобразование 3. Пусть по множеству известных приближенных значений (18) 
построена функция Еарр(Б, У), достаточно точно аппроксимирующая неизвестную функ- 
цию Есопз-шод(, У) (19) на множестве значений аргументов Она = {(Ъ, У): У Е Оша: 

ЕзрркВ, У) я Ебонезиюа( В, У), (В, У) е Эукоа. (20) 
В результате цепочки преобразований и построений, обеспечивающих соотношения (15), 
(16), (19) и (20), может быть построена суррогатная модель М", вычисляющая при- 
ближенное значение Е(Х, У) характеристики 7, с помощью функции: 
Ен СХ(Ь), У) = Езри(Ньюа(Ъ), У). 

В итоге, исходная задача построения суррогатной модели для приближенного вычисле- 
ния функции Е(Х(Б), У) может быть сведена к задаче построения аппроксимирующей 
функции Е. р(В, У) для вычисления значения Ека(В, У). 

Отметим, что типичным образом, задачи аппроксимации, возникающие при созда- 
нии суррогатных моделей, имеют ряд особенностей, описанных в [1], поэтому при созда- 
нии суррогатных моделей приходится разрабатывать новые комбинированные методы 
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аппроксимации, сочетающие в себе методы искусственного интеллекта (например, искус- 
ственных нейронных сетей) и традиционные математические методы аппроксимации и 
анализа данных. 
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О.В. Бернштейн, Е.В. Бурнаев, Е.А. Дорофеев, Ю.Н. Свириденко, С.С. Чернова 

Про вир!шення деяких завдань анал!зу даних, що виникають при побудов! адаптивних 
сурогатних моделей складних 0б’екив 

У статт! проведений огляд основних завдань анал1зу даних, що виникають при створенн! адаптивних 
сурогатних моделей складних об’екив. Детально розглянут! методолопчн! основи шдходв до вирипення 
завдань: 1) зниження розмрност! даних при створенн! математичних моделей опису об’ект\в; 
2) апроксимацй залежностей при створенн! сурогатних моделей. 
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